home *** CD-ROM | disk | FTP | other *** search
/ PC Plus SuperCD (UK) 1994 June / PC Plus Super CD coverdisc Issue 93 June 1994.iso / run / njstar / edict.doc < prev    next >
Encoding:
Text File  |  1992-06-12  |  8.7 KB  |  199 lines

  1. E D I C T 
  2. =========
  3.  
  4. Public Domain Japanese/English Dictionary file, coordinated by Jim Breen. 
  5.  
  6. CURRENT VERSION 
  7. ---------------
  8.  
  9. The version date and sequence number is included in the dictionary itself under 
  10. the entry "EDICT". (Actually it is under the JIS-ASCII code "????".  This keeps 
  11. it as the first entry when it is sorted.) 
  12.  
  13. The   master   copy   of   EDICT   is   in   the   pub/Nihongo   directory   of 
  14. monu6.cc.monash.edu.au.  There are other copies around,  but they may not be as 
  15. up-to-date. The easy way to check if the version you have is the latest is from 
  16. the size/date. 
  17.  
  18. INTRODUCTION
  19. ------------
  20.  
  21. EDICT is an attempt to produce a public domain Japanese/English  Dictionary  in 
  22. machine-readable form.  It was intended initially for use with MOKE (Mark's Own 
  23. Kanji Editor) and related software such as JDIC and JREADER, however it has the 
  24. potential to be used in a large number of packages.  
  25.  
  26. At present it is in the "public domain", however at some stage it may be placed 
  27. under  Gnu  or  Copyleft  protection,  mainly  to  prevent the work of its many 
  28. contributors being exploited by commercial software developers. 
  29.  
  30. FORMAT
  31. ------
  32.  
  33. EDICT is in the "EDICT" format used by MOKE.  It uses EUC coding for  kana  and 
  34. kanji,  however  this  can  be  converted  to JIS or SJIS by any of the several 
  35. conversion programs around.  It is a text file with one  entry  per  line.  The 
  36. format of entries is: 
  37.  
  38. KANJI [KANA] /english_1/english_2/.../
  39.  
  40.      or
  41.  
  42. KANA /english_1/.../
  43.  
  44. The English translations are deliberately brief,  as  the  application  of  the 
  45. dictionary is expected to be primarily on-line look-ups, etc. 
  46.  
  47. CONTENTS
  48. --------
  49.  
  50. EDICT consists of: 
  51.  
  52. (a) the basic EDICT distributed with MOKE 2.0.  This  was  compiled  by  MOKE's 
  53. author, Mark Edwards, with assistance from Spencer Green.  Mark has very kindly 
  54. released  this  material  to  the public domain as part of EDICTJ.  A number of 
  55. corrections have been made to the MOKE original, e.g.  spelling mistakes, minor 
  56. mistranslations,  etc.  It  also  had  a  lot of duplications,  which have been 
  57. removed.  It contained about 1900 unique entries.  Mark Edwards has also kindly 
  58. given permission for the vocabulary files developed for KG (Kanji Guess) to  be 
  59. added to EDICT. 
  60.  
  61. (b)  additions  by  Jim Breen.  I laboriously keyed in a ~2000 entry dictionary 
  62. used in my first year nihongo course at Swinburne Institute of Technology years 
  63. ago (I was given permission by the authors to do this).  I then worked  through 
  64. other vocabulary lists trying to make sure major entries were not omitted. This 
  65. task is continuing,  although it has slowed down,  and I suspect I will run out 
  66. of energy eventually.  Apart from that, I have made a large number of additions 
  67. during normal MOKE and JREADER usage (e.g. using it to read fj.* news.) 
  68.  
  69. (c) additions by others.  Many people have contributed entries and  corrections 
  70. to EDICT.  I am forever on the lookout for sources of material,  provided it is 
  71. genuinely available for use in the Public Domain.  I am especially grateful  to 
  72. Theresa  Martin  who  has  been  supplying a lot of useful material,  plus very 
  73. perceptive corrections.  Hidekazu Tozaki  has  also  been  a  great  help  with 
  74. tidying  up  a  lot  of  awry  entries,  and  helping me identify obscure kanji 
  75. compounds.  A full list is at the  back  of  this  file.  A  massive  group  of 
  76. contributions came from Sony,  where Rik Smoody had put together a large online 
  77. dictionary. 
  78.  
  79. At this stage EDICT is nowhere as big as a good  commercial  dictionary,  which 
  80. typically  has  20,000+ non-name entries with examples,  etc.  It is,  however, 
  81. bigger than some  of  the  smaller  printed  dictionaries,  and  when  used  in 
  82. conjunction  with  a  search-and-display  program  like  JDIC  it  provides  an 
  83. effective on-line dictionary service. 
  84.  
  85. COPYRIGHT?
  86. ----------
  87.  
  88. A  word  on copyright.  Of course most of the material in EDICT came from other 
  89. published lists.  Dictionary copyright is a difficult  point,  because  clearly 
  90. the  first  lexicographer  who  published  "inu  means  dog"  could not claim a 
  91. copyright violation over all subsequent Japanese dictionaries.  What makes each 
  92. dictionary unique (and copyrightable) is the particular selection of words, the 
  93. phrasing of the meanings,  the presentation of the contents (a  very  important 
  94. point  in the case of EDICT),  and the means of publication.  The advice I have 
  95. received from people who know about these things is that EDICT is just as  much 
  96. a  new  dictionary as any others on the market.  Readers may see an entry which 
  97. looks familiar,  and say "Aha!  That comes from the XYZ Jiten!".  They  may  be 
  98. right,  and they may be wrong.  After all there aren't too many translations of 
  99. neko.  Let me make one thing quite clear.  NONE of this  dictionary  came  from 
  100. commercial  machine-readable  dictionaries.  I  have  a case of RSI in my right 
  101. elbow to prove it. 
  102.  
  103. Please do not contribute  entries  to  EDICT  which  have  come  directly  from 
  104. copyrightable sources.  It is hard to check these,  and you may be jeopardizing 
  105. EDICT's PD status. 
  106.  
  107. LEXICOGRAPHICAL DETAILS
  108. -----------------------
  109.  
  110. EDICT is actually a Japanese->English dictionary,  although the words within it 
  111. can be selected in either language using appropriate software. (JDIC uses it to 
  112. provide both E->J and J->E functionality.) 
  113.  
  114. The limitations on size inherent in the dictionary due  to  its  current  usage 
  115. (MOKE scans it sequentially and JDXGEN,  which is JDIC's index generator, needs 
  116. to hold it in RAM) has meant that examples of usage  cannot  be  included,  and 
  117. inclusion of phrases is very limited. 
  118.  
  119. No  inflections of verbs or adjectives have been included,  except in idiomatic 
  120. expressions.  Similarly particles are  handled  as  separate  entries.  Adverbs 
  121. formed from adjectives (-ku or ni) are not included.  Verbs are, of course, are 
  122. in the plain or "dictionary" form. 
  123.  
  124. In working on EDICT,  bearing in mind I want to use it in MOKE and with JDIC, I 
  125. have had to come up  with  a  solution  to  the  problem  of  adjectival  nouns 
  126. [keiyoudoushi]  (e.g.  kirei  and kantan) and verbs formed by adding suru (e.g. 
  127. benkyousuru).  If I put entries in edict with the  "na"  and  "suru"  included, 
  128. MOKE  will  not  find  a  match  when  they  are omitted or,  the case of suru, 
  129. inflected.  What I have decided to do  is  to  put  the  basic  noun  into  the 
  130. dictionary  and  add "(vs)" where it can be used to form a verb with suru,  and 
  131. "(an)" if it is an adjectival noun. Entries appear as: 
  132.  
  133. KANJI [benkyou] /study (vs)/ 
  134. KANJI [kantan] /simple (an)/ 
  135.  
  136. Where  necessary,  verbs  are marked with "(vi)" or "(vt)" according to whether 
  137. they are intransitive or transitive.  (Work on this aspect  is  continuing.)  I 
  138. have  also  used (id) to mark idiomatic expressions,  (col) for colloquialisms, 
  139. (pol) for teineigo, etc. 
  140.  
  141. USAGE
  142. -----
  143.  
  144. EDICT can be used as the dictionary within MOKE simply by renaming it  "EDICT", 
  145. (or  JTOE.DCT  in the new version 2.1 of MOKE.) If you are a MOKE user and have 
  146. been adding to your EDICT using the "Ask English?"  option,  you  may  wish  to 
  147. append your additions.  Why not send them to me and I will add them to EDICT? 
  148.  
  149. EDICT can be used,  with acknowledgement,  for any purpose whatever, EXCEPT for 
  150. inclusion in new commercial products.  Mark Edwards can,  of course,  use it in 
  151. later MOKE releases.  Stephen Chung may also be using it in his PD "JWP". 
  152.  
  153. CONTRIBUTIONS
  154. -------------
  155.  
  156. I will be delighted if people send me corrections, suggestions,  and ESPECIALLY 
  157. additions.  Before ripping in with a lot of suggestions, make sure you have the 
  158. latest version, as others may have already made the same comments. 
  159.  
  160. The  preferred  format  for  submissions  is  a  JIS or EUC file (uuencoded for 
  161. safety) containing replacement/new entries.  Separate the amendments  from  the 
  162. new material: e.g. 
  163.  
  164. **Amendments to EDICT yyyymmmdd Vyy-nnn**
  165.  
  166. old entry1
  167. new entry1
  168. old entry2
  169. ........
  170.  
  171. **New Entries**
  172.  
  173. New entry1
  174. New entry2
  175. .........
  176.  
  177. I  prefer  not  to  get  a "diff" or "patch" file as the master edictj is under 
  178. continuous revision,  and may have had quite a few changes since you  got  your 
  179. copy. 
  180.  
  181. ACKNOWLEDGEMENTS
  182. ----------------
  183.  
  184. Mark Edwards, Spencer Green, Alina Skoutarides, Takako Machida, Theresa Martin, 
  185. Satoshi Tadokoro,  Stephen  Chung,  Hidekazu  Tozaki,  Clifford  Olling,  David 
  186. Cooper, Ken Lunde, Joel Schulman, Hiroto Kagotani, Truett Smith, Mike Rosenlof, 
  187. Harold Rowe,  Al Harkom,  Per Hammarlund,  Atsushi Fukumoto, John Crossley, Bob 
  188. Kerns, Frank O'Carroll, Rik Smoody, Scott Trent, Curtis Eubanks,  Jamie Packer, 
  189. Hitoshi Doi, Thalawyn Silverwood, Makato Shimojima, Bart Mathias, Koichi Mori.
  190.  
  191. Jim Breen
  192. (jwb@capek.rdt.monash.edu.au)
  193. Department of Robotics & Digital Technology
  194. Monash University
  195. Caulfield East 3145
  196. AUSTRALIA                                   
  197.  
  198.  
  199.